Helpfeelでの質問文の半自動生成の取り組み 後編
ChatGPT API登場前から研究していた話
目標: このあたりを共有する
自然言語の良質な言い換えの難しさ
非MLエンジニアとしての挑戦過程で得たもの
これまでに試した手法
古典的なNLP手法いろいろ
BERT
文章を文頭と文末の双方向から学習可能な自然言語処理モデル
文脈を理解できる
T5 (Text-to-Text Transfer Transformer)
https://gyazo.com/921b97a01bd3cfaf0864e13c405d4e0b https://blog.research.google/2020/02/exploring-transfer-learning-with-t5.html
NLPの研究室を訪問して教えてもらった
テキスト生成モデル
BERTでの言い換えタスク
基本的な穴埋め問題
類義語を用いた質問文の機械展開
言い換えたい部分を[MASK]にする
わずかに文脈を与える
例
https://gyazo.com/4815f17f0d0af1d3054f4e2cc53b9c0a
https://gyazo.com/9bca2969c7bc05f52e808f92e0ba94ee
課題
単語レベルでの言い換えしかできない
文脈情報と言い換え対象の単語を人間が指定する必要がある
T5での言い換えタスク
事前学習済みのモデル
100GBほどの日本語テキストで訓練されている
例: Input: 料理に入っているアレルギー物質が知りたい
https://gyazo.com/c0a7a577ec14725c2131a9c8c34e96c8
課題
期待したほどバリエーションがない
本質的でない箇所の言い換えが多い
出力される日本語が安定していない
T5モデルをfine tuning
テクニカルライターによる既存の言い換えデータを使ってfine tuning
理想とする入出力のペアを与える
生成結果の精度が明らかによくなった
初代のプロトタイプができた
https://gyazo.com/5590955d803f423ad9ff9b2b01e025e7
成果例: Before / After
Input: 商品が壊れていた。返金してほしい。
https://gyazo.com/b2574f5d97b9c65eb0953b758d33a2d8 https://gyazo.com/b094194a383cf0bbc11bea3e810fa5f3
Input: フリーローンの繰り上げ返済をしたい
https://gyazo.com/cf9e1f855c430e270e354700201373c8 https://gyazo.com/ffcdfeaad6ec8db71844090a9f5b03b6
課題
業界ごとにfine tuningするの?
クリエイティビティが足りない
ChatGPT API 登場
障壁となっていた問題がほぼ解決
生成される文章の調整と精度保証
→ プロンプト調整
題材ごとのファインチューニング
→ 基盤モデルが優秀なので当面は不要
さらに、使いやすい!
→ REST API呼び出しだけでよい
チャンス到来
もどる